L'évolution du traitement du langage naturel représente un changement fondamental, passant du traitement du langage comme symboles discrets et isolés à une représentation dans un espace vectoriel continu et multidimensionnel. Nous sommes passés de simples représentations basées sur des caractéristiques à des cartes sémantiques profondes.
Le changement de représentation
- L'ère statistique (creuse): Le TPN précoce reposait sur l'algorithme TF-IDF. Bien qu'efficace pour la récupération, il souffre de la « malédiction de la densité faible ». Dans un système TF-IDF, les mots « Physician » et « Doctor » sont des vecteurs orthogonaux — mathématiquement, ils n'ont aucune relation.
- La révolution distribuée (NNLM et Word2Vec): Les modèles linguistiques à réseau de neurones ont introduit des vecteurs denses. Word2Vec (Skip-gram/CBOW) apprend que les mots apparaissant dans des contextes similaires doivent être des voisins spatiaux.
- Statistiques globales (GloVe): Les vecteurs globaux combler le fossé en analysant la co-occurrence globale sur tout le corpus, garantissant que la distance reflète la similarité sémantique mathématique.
Vraie compréhension
Le passage du décompte des occurrences à la prédiction du contexte permet aux modèles de capter les nuances. Cette « représentation distribuée » signifie qu'un mot unique a sa signification répartie sur des centaines de dimensions vectorielles, chacune pouvant représenter une fonction sémantique latente telle que le genre, la royauté ou le contexte médical.